梯度消失,梯度爆炸
梯度消失(Vanishing Gradient)指的是在反向传播过程中,由于网络层数过多或者选取了不适合的激活函数,在较靠前的层中梯度变得非常小,甚至趋近于零,导致这些层参数无法得到有效更新,从而使得网络无法训练或者训练非常缓慢。
梯度爆炸(Exploding Gradient)则是相反的情况,梯度在反向传播过程中变得非常大,导致权重更新过大,网络变得不稳定甚至发散。
缓解梯度消失
缓解来梯度爆炸